Apparate: Rethinking Early Exits to Tame Latency-Throughput Tensions in ML Serving

Yinwei Dai, Rui Pan, Anand Iyer, Kai Li, Ravi Netravali

Princeton University, Georgia Institute of Technology

一句话总结概括

为了解决吞吐量和延迟的调度问题,提出的一种早期退出系统

背景

  • throughput和latency之间的冲突。
    • 为了高的吞吐率,需要加大batch size
    • 加大batch size会导致某些request的latency很大
  • 一系列ML的早期退出机制

先前工作存在的问题

  • 目前的工作只是把latency分解到批处理中,来做判断
  • 也有提出早期退出的工作

难点

有空再精读,方向不是LLM

解决方案

创新点

实验评估

Q&A

results matching ""

    No results matching ""